智能论文笔记

Quo Vadis: Hybrid Machine Learning Meta-Model based on Contextual and Behavioral Malware Representations

Dmitrijs Trizna

分类：机器学习

2022-08-20

我们提出了一个混合机器学习体系结构，该体系结构同时采用多个深度学习模型，分析Windows便携式可执行文件的上下文和行为特征，从而根据Meta模型的决定产生最终预测。当代机器学习Windows恶意软件分类器中的检测启发式启发式基于样本的静态属性，因为通过虚拟化动态分析对于大量样本而言是挑战性的。为了超越这一限制，我们采用了Windows内核仿真，该仿真允许以最低的时间和计算成本获得大型语料库中的行为模式。我们与安全供应商合作，收集了超过100k的INT样品，这些样本类似于当代威胁景观，在执行时包含原始的PE文件和应用程序的档案。获得的数据集至少比行为恶意软件分析的相关工作中报告的十倍大。培训数据集中的文件由专业威胁情报团队标记，使用手动和自动化的反向工程工具。我们通过收集培训集的收购来估算混合分类器的运营实用程序。我们报告了提高的检测率，高于当前最新模型的功能，尤其是在低阳性要求下。此外，即使没有任何单个模型表达足够的信心来将样本标记为恶意，我们也发现了元模型在验证和测试集中识别恶意活动的能力。我们得出的结论是，元模型可以从不同分析技术产生的表示组合中学习典型的恶意样本模式。我们公开发布了预培训的模型和仿真报告的匿名数据集。

translated by 谷歌翻译

在本文中，我们提出了一个Shell语言预处理（SLP）库，该库实现了针对解析UNIX和Linux Shell命令的令牌化和编码。我们描述了需要采用新方法的基本原理，并以常规自然语言处理（NLP）管道失败的特定示例。此外，我们评估了针对广泛接受的信息和通信技术（ICT）令牌化技术的安全分类任务的方法，并将F1分数从0.392提高到0.874。

translated by 谷歌翻译

这项工作提出了一个基于注意力的序列到序列模型，用于手写单词识别，并探讨了用于HTR系统数据有效培训的转移学习。为了克服培训数据稀缺性，这项工作利用了在场景文本图像上预先训练的模型，作为调整手写识别模型的起点。Resnet特征提取和基于双向LSTM的序列建模阶段一起形成编码器。预测阶段由解码器和基于内容的注意机制组成。拟议的端到端HTR系统的有效性已在新型的多作用数据集IMGUR5K和IAM数据集上进行了经验评估。实验结果评估了HTR框架的性能，并通过对误差案例的深入分析进一步支持。源代码和预培训模型可在https://github.com/dmitrijsk/attentionhtr上找到。

translated by 谷歌翻译